惊异值(surprisal)
惊异值(surprisal)是语言学和认知科学中用来衡量一个语言单元(如单词、短语等)在给定上下文中出现意外程度的概念。它来源于信息论中的自信息(self-information),具体通过事件概率的负对数来计算。
数学定义
对于一个离散随机变量
其中:
对数以2为底,惊异值通常以比特(bits)为单位。
计算步骤
惊异值的计算分为以下几个步骤:
确定上下文
在语言处理中,上下文
计算条件概率
语言模型根据上下文
例如,在句子“He clean”后,模型可能会预测下一个单词“the”的概率为0.8,而“his”的概率为0.1。
计算惊异值
将目标语言单元
如果概率
如果概率